DAY18 - SeamlessM4T程式碼中的Vocoder - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 18

AI & Data

利用SeamlessM4T學習語音辨識架構及應用系列第 18 篇

DAY18 - SeamlessM4T程式碼中的Vocoder

15th鐵人賽 seamlessm4t

AlbertShiu

2023-10-03 09:20:21

1411 瀏覽

分享至

MetaAI在使用Unit decoder得到轉譯後的語音單元(Unit)後，送入HiFi-GAN Vocoder單元轉換為語音聲波訊號。MetaAI使用兩種HiFi-GAN聲碼器，其中一種HiFi-GAN聲碼器（Kong et al., 2020）將頻譜圖轉換為 TTS 波形以及直接將語音到頻譜圖。另一種是基於單元的HiFi-GAN聲碼器（Polyak 等人，2021），將離散語音單位轉換為聲波波形。而兩個聲碼器是分開訓練的。

HiFi-GAN

HiFi-GAN 由一個生成器和兩個判別器組成：多尺度和多周期判別器(Multi-Scale Discriminator and Multi-Period Discriminator)。生成器和判別器進行對抗性訓練，並附加兩個額外損失(Loss)來提高訓練穩定性和模型性能。

生成器Generator

生成器是一個完全的卷積神經網路，使用頻譜圖作為輸入，並透過轉置卷積對其進行上採樣(Upsampling)，直到輸出序列的長度與原始波形的時間相匹配。每個轉置卷積後面都接著一個多受域融合（multi-receptive field fusion, MRF, 文獻）模組。

Multi-Period Discriminator

MPD 是子判別器的混合體，每個子判別器僅接受輸入音訊的相同間隔樣本，旨在透過查看輸入音訊的不同部分，來捕捉其中的隱式結構。每個子判別器都具有ReLU啟動函數的卷積層堆疊。隨後將權重歸一化（Salimansand Kingma，2016）應用於MPD。透過將輸入音訊重塑為2D 資料而不是對音訊進行週期性訊號取樣，可以將MPD 的梯度傳遞到輸入音訊的所有時間步長。